#selección de datos

Centros o periferias: selección de datos vía centralidad de grafo web

Descubre cómo WebGraphMix selecciona datos de preentrenamiento usando centralidad de grafo web, mejorando el rendimiento de modelos de lenguaje sin necesidad de etiquetado.

2026-06-11 · 2 min

Hubs o Fringes: Selección de datos de preentrenamiento con centralidad de grafos web

Descubre cómo WebGraphMix selecciona datos de preentrenamiento para IA usando la centralidad de la web, mejorando rendimiento sin etiquetas. 🔥

2026-06-11 · 2 min

¿Importa la pregunta? Selección de datos sin entrenar para SFT visión-lenguaje

CVS selecciona datos de alta calidad para SFT multimodal sin entrenamiento. Mejora un 3.5% usando solo el 10% de los datos y reduce costos un 44%.

2026-06-11 · 2 min

¿Importa la pregunta? Selección datos sin entrenamiento para SFT visión-lenguaje

Descubre CVS: método sin entrenamiento para seleccionar datos de SFT visión-lenguaje, mejorando rendimiento un 4.8% con solo 15% de datos.

2026-06-11 · 2 min

Unificando datos, memoria y cómputo en entrenamiento de LLMs

Descubre cómo unificar la eficiencia en datos, memoria y cómputo para entrenar LLMs de forma óptima bajo presupuestos limitados. Aprende técnicas clave.

2026-06-10 · 2 min

GRASP: Alineación Residual Geométrica para Atribución Escalable

Descubre GRASP, un método innovador que modela interacciones entre subconjuntos para optimizar la atribución de datos en preentrenamiento a gran escala. Mejora eficiencia y precisión.

2026-06-08 · 2 min

¿Pueden los agentes generalistas automatizar la curación de datos?

Agentes generalistas automatizan la curación de datos: nuevo benchmark Curation-Bench muestra que superan métodos publicados con 10% del presupuesto.

2026-06-04 · 3 min

STRIDE: Atribución de datos de entrenamiento con recuperación dispersa

Descubre STRIDE, un nuevo método que atribuye predicciones de LLM a datos de entrenamiento mediante recuperación dispersa, logrando 13 veces más rapidez que métodos anteriores.

2026-06-04 · 1 min

Smart Picks en la oscuridad: RLVR eficiente con trazado metacognitivo

Descubre cómo PivotTrace logra un rendimiento casi total con solo el 29% de datos etiquetados y una convergencia 2.75 veces más rápida en RLVR.

2026-06-04 · 3 min

TSQAgent: Calidad de Series Temporales con Razonamiento Agéntico

Descubre TSQAgent, un marco de agentes de IA que evalúa la calidad de series temporales mediante razonamiento y herramientas analíticas. Mejora la selección de datos y el rendimiento.

2026-06-03 · 2 min

BLISS: Método ligero de influencia bilevel para selección de datos

BLISS: método ligero para selección de datos en preentrenamiento de LLMs. Logra 1.7x de aceleración sin modelos externos.

2026-06-02 · 2 min

Funciones de Confianza: Generalización Débil a Fuerte sin Pérdidas

Aprende cómo las funciones de confianza filtran etiquetas débiles para lograr generalización casi sin pérdidas. Mejora tu IA.

2026-06-02 · 3 min

Dificultad de aprender meta-red para selección de datos

La selección de datos sintéticos con meta-redes tiene desafíos. Descubre cómo aumentar el tamaño de lote y usar características informativas mejora el rendimiento en un 5.49%.

2026-06-02 · 2 min

Unificación y optimización de valores de datos en selección secuencial

Descubre cómo un nuevo enfoque unifica y optimiza la valoración de datos usando decisiones secuenciales, mejorando la selección en LLM y benchmarks clásicos.

2026-06-01 · 1 min

PRISM: Selección Intrínseca de Datos Multimodales sin Entrenamiento

Descubre PRISM, un método que selecciona datos de instrucción visual sin entrenamiento, reduciendo costes y mejorando el rendimiento de modelos multimodales.

2026-06-01 · 2 min

Efectos a largo plazo de la selección de datos en fine-tuning de LLM

Descubre cómo la selección miope de datos en el fine-tuning de LLM puede perjudicar la adaptabilidad futura y cómo evitarlo.

2026-06-01 · 2 min